智能论文笔记

Break and Make: Interactive Structural Understanding Using LEGO Bricks

Aaron Walsman , Muru Zhang , Klemen Kotar , Karthik Desingh , Ali Farhadi , Dieter Fox

分类：计算机视觉 | 人工智能

2022-07-27

对具有复杂空间关系的几何结构的视觉理解是人类智力的基本组成部分。作为孩子，我们不仅从观察中，而且通过与周围的世界互动来学习如何推理结构 - 通过将事物拆开并将它们重新放回原处。理解结构和组成性的能力不仅使我们不仅可以构建事物，还可以理解和反向工程复合系统。为了推进基于部分几何理解的互动推理研究，我们提出了一个充满挑战的新组装问题，它使用我们称之为中断和制造的乐高积木。在此问题中，给代理人获得了一个乐高模型，并试图通过交互检查和拆卸它来理解其结构。在此检查期之后，代理必须通过使用低级动作原始素从头开始重建模型来证明其理解。为了促进有关此问题的研究，我们构建了Ltron，这是一种完全交互的3D模拟器，允许学习代理组装，拆卸和操纵乐高模型。我们将此模拟器与一个新的粉丝乐高创作的数据集配对，该数据集已上传到Internet，以提供包含一千多种独特砖头的复杂场景。我们使用序列到序列模型迈出了解决此问题的第一步，这些模型为如何在这个具有挑战性的问题上取得进展提供指导。我们的模拟器和数据可在github.com/aaronwalsman/ltron上获得。可以在github.com/aaronwalsman/ltron-torch-eccv22上获得其他培训代码和Pytorch示例。

translated by 谷歌翻译

Interactron: Embodied Adaptive Object Detection

Klemen Kotar , Roozbeh Mottaghi

分类：计算机视觉 | 机器人

2022-02-01

多年来，已经提出了各种方法用于对象检测问题。最近，由于强大的深度神经网络的出现，我们在这个领域取得了长足的进步。但是，在这些方法中通常有两个主要的假设。首先，该模型在固定训练集上进行培训，并在预录的测试集上进行评估。其次，在训练阶段后将模型冷冻，因此在训练完成后未进行进一步的更新。这两个假设限制了这些方法对现实世界设置的适用性。在本文中，我们提出了Interactron，这是一种在交互式环境中自适应对象检测的方法，该方法是在通过在不同环境中导航的体现代理观察到的图像中执行对象检测。我们的想法是在推理过程中继续培训，并在测试时间调整模型，而无需通过与环境进行互动任何明确的监督。我们的自适应对象检测模型比DETR（最新的高性能对象检测器DETR）提供了7.2点的AP（AP50中的12.7点）。此外，我们表明我们的对象检测模型适应具有完全不同外观特征的环境，并且在其中表现良好。该代码可在以下网址获得：https：//github.com/allenai/interactron。

translated by 谷歌翻译

Meet-in-the-middle: Multi-scale upsampling and matching for cross-resolution face recognition

Klemen Grm , Berk Kemal Özata , Vitomir Štruc , Hazım Kemal Ekenel

分类：计算机视觉

2022-11-28

In this paper, we aim to address the large domain gap between high-resolution face images, e.g., from professional portrait photography, and low-quality surveillance images, e.g., from security cameras. Establishing an identity match between disparate sources like this is a classical surveillance face identification scenario, which continues to be a challenging problem for modern face recognition techniques. To that end, we propose a method that combines face super-resolution, resolution matching, and multi-scale template accumulation to reliably recognize faces from long-range surveillance footage, including from low quality sources. The proposed approach does not require training or fine-tuning on the target dataset of real surveillance images. Extensive experiments show that our proposed method is able to outperform even existing methods fine-tuned to the SCFace dataset.

translated by 谷歌翻译

Survey of NLP in Pharmacology: Methodology, Tasks, Resources, Knowledge, and Tools

Dimitar Trajanov , Vangel Trajkovski , Makedonka Dimitrieva , Jovana Dobreva , Milos Jovanovik , Matej Klemen , Aleš Žagar , Marko Robnik-Šikonja

分类：自然语言处理 | 机器学习

2022-08-22

自然语言处理（NLP）是一个人工智能领域，它应用信息技术来处理人类语言，在一定程度上理解并在各种应用中使用它。在过去的几年中，该领域已经迅速发展，现在采用了深层神经网络的现代变体来从大型文本语料库中提取相关模式。这项工作的主要目的是调查NLP在药理学领域的最新使用。正如我们的工作所表明的那样，NLP是药理学高度相关的信息提取和处理方法。它已被广泛使用，从智能搜索到成千上万的医疗文件到在社交媒体中找到对抗性药物相互作用的痕迹。我们将覆盖范围分为五个类别，以调查现代NLP方法论，常见的任务，相关的文本数据，知识库和有用的编程库。我们将这五个类别分为适当的子类别，描述其主要属性和想法，并以表格形式进行总结。最终的调查介绍了该领域的全面概述，对从业者和感兴趣的观察者有用。

translated by 谷歌翻译

Extracting and filtering paraphrases by bridging natural language inference and paraphrasing

Matej Klemen , Marko Robnik-Šikonja

分类：自然语言处理

2021-11-13

raphracrasing是一种有用的自然语言处理任务，可以为更多样化的生成或翻译文本做出贡献。自然语言推论（NLI）和释义分享一些相似之处，可以从联合方法中受益。我们提出了一种新的方法，用于从NLI数据集中提取释放数据集并清洁现有的释义数据集。我们的方法是基于双向征报;即，如果两个句子可以相互矛盾，则它们是释义。我们在单声道和交叉旋转设置中使用几种大型佩带的变压器语言模型来评估我们的方法。结果显示了高质量的提取释放数据集，以及两个现有的释义数据集中的令人惊讶的高噪声水平。

translated by 谷歌翻译